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摘 要 : [目的 /意义 ] 针 对 文化 遗产 语义 组 织 发 展现 状 展开 研究 ,对 我 国文 化 遗产 研究 具有 重要 参考 价值 。[ 方法 “过程 ] 
采用 系统 调研 法 、 案 例 分 析 法 和 统计 分 析 法 ,以 调研 数据 概括 为 基础 ,从 语义 组 织 方式 和 知识 服务 与 工具 两 个 方 
面 对 文 化 遗产 项 目 语义 组 织 研 究 现状 进行 梳理 ,从 知识 建 模 、 知 识 抽取 和 知识 挖 据 与 利用 三 个 维度 对 文化 遗产 语 
义 组 织 关键 技术 进行 剖析 。 [ 结果 /结论 ] 研究 发 现 , 数 据 互 操作 、 领 域 本 体 标准 化 个 性 化 语义 、 自 动 化 工具 和 数 


据 版 权 是 未 来 文化 遗产 语义 组 织 发 展 的 关键 。 
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< 文化 遗产 是 人 类 在 社会 历史 发 展 过 程 中 创造 的 具 
ADDE .艺术 .科学 等 价值 的 文化 财富 ,深入 研究 和 挖 
据 沁 化 遗产 ,有 利于 阅 发 文化 精髓 ,保护 与 传承 文化 遗 
= 雅 动 中 外 文化 交流 互 鉴 。 随 着 信息 化 技术 的 发 展 ， 
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模 旧 益 庞 大 ,种 类 繁多 ,为 文化 遗产 的 保护 、 研 究 和 传 
二 和 柄 累 了 良好 的 资源 基础 。 然 而 由 于 这 些 资源 的 数据 
存 烽 形式 和 格式 多 样 ,缺乏 统一 的 描述 标准 ,使 得 文化 
遗产 资源 数据 表现 出 较 强 的 异 构 性 。 如 何 将 大 量 异 构 
的 高 化 遗产 资源 以 计算 机 可 处 理 及 可 理解 的 方式 组 织 
起 来 ,成 为 当前 亟待 深入 研究 和 解决 的 问题 。 

近年 来 ,数字 人 文 及 人 文 计算 研究 得 到 了 计算 机 、 
图 书 情报 和 历史 学 领域 学 者 的 广泛 关注 ,对 于 文化 中 
产 领 域 数字 资源 的 信息 组 织 , 学 者 们 尝试 将 智能 信息 
处 理 技术 与 文化 遗产 资源 研究 结合 起 来 ,开展 文化 遗 
产 语义 组 织 的 理论 和 实践 研究 。 借 助 语义 网 及 机 器 学 
习 等 技术 ,学 者 们 对 图 书馆 ,博物馆 及 档案 馆 的 典藏 次 
源 进 行 了 知识 抽取 知识 组 织 及 知识 服务 研究 ,逐步 积 
累 了 文化 遗产 信息 资源 管理 的 相关 理论 ,方法 和 技术 。 
在 此 背景 下 ,本文 以 国内 外 典型 文化 遗产 项 目 为 基础 ， 
对 国内 外 文化 遗产 语义 组 织 研究 现状 展开 研究 ,以 其 


为 文化 遗产 资源 的 语义 组 织 提供 借鉴。 
2 文化 遗产 项 目 语义 组 织 研究 现状 


随 着 人 文大 数据 的 发 展 ,文化 遗产 数据 经 历 了 数 
字 化 .结构 化 .语义 化 的 发 展 ,逐步 探索 文化 遗产 中 药 
含 知识 点 间 更 深层 次 的 语义 关系 。 本 文 以 调研 数据 概 
括 为 基础 ,从 语义 组 织 方式 和 语义 知识 服务 与 工具 两 
个 方面 ,对 在 技术 ,规范 和 系统 化 程度 等 方面 具有 代表 
性 的 文化 遗产 项 目的 语义 组 织 现 状 进行 研究 。 基 于 各 
文化 遗产 项 目 平台 的 资料 ,本文 对 典型 文化 遗产 项 目 
的 研究 主题 来 源 资源 类 型 .语义 组 织 模式 和 提供 的 语 
义 服 务 进行 总 结 , 见 表 1。 

2.1 调研 数据 来 源 概括 

(1) 文 化 遗产 项 目 主要 研究 重点 。 国 内 外 典型 文 
化 遗产 项 目 主要 围绕 历史 人 物 .历史 事件 和 文化 收藏 
等 主题 开展 语义 组 织 研究 。 一 些 学 者 针对 历史 人 物 设 
计 语 义 描述 模型 ,如 CBDB (中 国 历 代 人 物 关系 数据 
库 ) 围 绕 中 国 历史 人 物 传 记 资 料 展开 研究 ,涉及 亲属 关 
系 、 社 会 关系 等 实体 " ;宋代 学 术语 义 网 络 平台 对 宋代 
人 物 之 间 的 学 术 传 承 关系 和 亲属 关系 进行 组 织 和 重 
构 ; 历 代 进 士 登科 数据 库 针 对 公元 6 世纪 以 来 10 万 余 
历代 进士 登科 人 物 的 登科 资料 展开 研究 。 还 有 一 些 语 
义 门 户 围绕 历史 事件 展开 研究 ， 如 芬兰 文化 遗产 项 目 
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表 1 典型 文化 遗产 项 目 概况 


项 目 名 称 研究 主题 来 源 资源 类 型 语义 组 织 模式 语义 服务 
中 国 历代 人 物 关系 中国 历史 人 物 传记 资料 正史 列传 .墓志 铭 . 墓 表 、 地 方志 “数据库 ;以 人 物 关 系 为 ”结构 化 查询 (入 什 、 社 会 关系 、 职 官 .亲属 
数据 库 (CBDB ) 列传 .人物 传记 索引 中 心 关系 ,关系 网 络 .配对 关系 ) .群体 传记 学 
分 析 、 社 会 网 络 分 析 地理 系统 分 析 
Europeana 欧洲 图 书馆 .博物馆 、 档 案 馆 ”书籍 .音乐 .艺术 品 等 数字 遗产 ”知识 图 谱 ;以 文化 收藏 ”精准 化 搜索 与 过 滤 工 具 、 开 放 REST 
馆藏 资源 为 中 心 API 接口 
WarSampo 第 二 次 世界 大 战 (芬兰 ) 战争 资料 战争 日 记 、 战 争 相 册 ”关联 数据 ;以 战争 事件 数据库 全 局 下 载 .URI 重 定向 、 关 联 数 
集 战争 回忆 录 等 资料 为 中 心 时 浏览 与 查询 ,数据 生产 编辑 与 认证 、 
可 视 化 分 析 
MuseumFinland 芬兰 博物 馆 馆 藏 芬兰 各 博物 馆 、 诺 基 亚 和 Ti- 关联 数据 ;以 机 构 收 藏 ”基于 内 容 的 智能 搜索 和 浏览 服务 
etoEnator 等 公司 等 机 构 的 收藏 ” 为 中 心 
宋代 学 术语 义 网 络 ”宋代 人 物 间 学 术 传承 关系 和  € CBDB 中 的 宋代 人 物 数据 知识 图 谱 ; 以 人 物 关系 ” 知识 图 谱 结构 探索 、RelFinder 关系 发 
平台 亲属 关系 为 中 心 B 
历代 进士 登科 数据 库 ”登科 人 物 的 传记 资料 传世 文献 .出土 史 料 数据 库 ; 以 人 物 为 中 心 ”搜索 浏览 数据 统计 、 可 视 化 分 析 


WarSampo 对 战争 日 记 、 战争 相 册 集 、 战 争 回忆 录 等 战 
合资 料 中 与 芬兰 有 关 的 第 二 次 世界 大 战事 件 展开 研 
究 。 还 有 部 分 语义 门户 以 文化 收藏 为 核心 进行 数据 
关 鹏 ,主要 包括 藏品 绘画、 音乐 ,建筑 等 ,如 芬兰 博物 
MEDIEI MuseumFinland 围绕 芬兰 各 博物 馆 和 诺基亚 等 
人 二 的 收藏 展开 研究 中 ,欧洲 文化 遗产 项 目 Europeana 
对 欧洲 多 个 图 书馆 博物馆、 档案 馆 等 机 构 的 书籍 音 
AER I ERUR 

CUC ) 文 化 遗产 项 目 数据 来 源 。 文 化 遗产 资源 是 文 
人 @ 婴 产 项 目的 基础 和 关键 。 通 过 对 各 文化 遗产 项 目 网 


让 浓 台 的 数据 和 相关 资料 进行 调研 ,发 现 当前 国内 外 


2.2 语义 组 织 方式 

语义 组 织 方式 是 根据 文化 遗产 资源 的 特点 ,以 某 
种 方式 实现 文化 遗产 资源 的 有 序 化 规律 化 或 者 系统 
化 ,主要 经 历 了 非 结构 化 、 结 构 化 .关联 化 和 智慧 化 四 
个 阶段 ,实现 文化 遗产 数据 资源 从 文献 数据 到 量化 数 
据 、 智 能 数据 的 发 展 。 

(1) 非 结构 化 阶段 。 文 化 遗产 数据 最 初 基本 都 以 
非 结 构 化 方式 存在 于 各 类 信息 资源 中 ,表现 出 极 强 的 
不 规则 性 和 不 完整 性 。 在 文化 遗产 数据 组 织 的 早期 阶 
段 , 主 要 通过 包括 OCR 识别 和 人 工 录入 的 方式 实现 文 
化 遗产 资源 的 数字 化 。 这 一 阶段 需要 耗费 大 量 的 时 


文 能 遗产 项 目 多 以 公共 文化 机 构 .第 三 方 机 构 和 高 校 、 
科 狼 院 所 等 机 构 的 馆藏 或 数字 资源 为 基础 ,主要 可 分 
为 符 建 关系 数据 库 和 多 源 异 构 数据 库 。 
-三 自 建 关系 数据 库 , 主要 是 指 文化 遗产 项 目 通 过 自 
FH Lb 辑录 原始 史料 或 者 利用 二 手 史料 构建 数 
据 库 。 自 建 关系 数据 库 能 够 保证 数据 的 原创 性 和 真实 
性 ,但 是 需要 进行 大 量 的 人 工 处 理 ,效率 较 低 。 如 CB- 
DB 项 目 早期 对 正史 列传 ,墓志 铭 墓 表 、 地 方志 列传 及 
人 物 传记 索引 等 原始 语 料 进行 手工 处 理 中 ,历代 进 十 
登科 数据 库 中 的 数据 多 是 由 歼 延 明教 授 及 其 团队 手工 
辑录 的 。 
多 源 异 构 数据 库 , 主 要 实现 高 校 . 科 研 院 所 ,公共 
文化 机 构 .出 版 社 等 其 他 组 织 构建 数据 库 的 集成 。 多 
源 异 构 数 据 库 的 数据 获取 方便 ,但 是 呈现 较 强 的 多 源 
异 构 性 ,重点 在 于 实现 不 同类 型 组织 方式 的 数据 或 数 
据 库 之 间 的 兼容 。 如 WarSampo 项 目 中 的 文化 遗产 数 
据 多 来 源 于 芬兰 各 博物 馆 和 档案 馆 ,CBDB 中 部 分 
数据 来 源 于 出 版 社 发 行 的 人 物 传记 索引 、 年 表 以 及 麦 
吉尔 大 学 的 明 清 妇 女 著作 数据 库 、 中 央 研 究 院 的 明 清 
档案 人 名 权威 数据 库 等 ”。 


间 、 精 力 阅 读 和 整理 文化 遗产 资源 ,同时 需要 历史 研究 
人 员 对 资源 进行 主观 的 归纳 与 演绎 。 比 如 ,历代 进士 
登科 数据 库 使 用 手工 方式 进行 文献 资料 的 搜集 和 录 
入 ,构建 出 相应 的 《中 国 历代 登科 总 录 》 人 《宋代 登科 总 
录 》《 明 代 登 科 总 录 》 等 索引 资料 “。 

(2) 结 构 化 阶段 。 文 化 遗产 组 织 的 结构 化 阶段 是 
指 利 用 自然 语言 处 理 .元 数据 等 技术 方法 ,对 文化 遗产 
资源 进行 典籍 分 词 .词性 标注 .命名 实体 识别 等 技术 处 
理 ,实现 文化 遗产 资源 的 资料 化 .规模 化 .有 序 化 和 规 
律 化 。 比 如 ,CBDB 利用 正则 表达 式 等 计算 机 文本 挖 
掘 技术 ,从 数字 文化 资源 中 精准 地 抽取 出 历史 人 物资 
TE" 。 这 一 阶段 实现 了 分 词 及 词汇 级 的 文本 抽取 工 
作 , 产 生 了 了 大 量 的 主题 索引 ,如 《十 三 经 索引 》《 二 十 
四 史 地 名 索引 》 等 ,以 及 大 量 专科 词典 ,如 《中 国 历史 
地 名 大 词典 历代 职 官 词典 》 等 研究 成 果 。 

(3 ) 关 联 化 阶段 。 文 化 遗产 组 织 的 关联 化 阶段 主 
要 是 指 在 结构 化 数据 的 基础 上 ,构建 本 体 框 架 模型 , 实 
现 概念 关系 抽取 和 语义 关联 。 关 联 化 阶段 是 目前 大 部 
分 文化 遗产 项 目 建 设 的 目标 ,依据 文化 遗产 不 同 的 研 
究 领 域 . 人 研究 问题 ,人 研究 情境 以 及 史料 特点 ,构建 主题 
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词 表 、 领 域 本 体 等 概念 关系 描述 工具 ,在 此 基础 上 形成 
了 关联 数据 ,为 实现 文化 遗产 资源 时 间 、 空 间 ,主题 等 
分 析 提 供 了 关联 化 的 数据 。 如 ,WarSampo 构建 二 战 本 
体 框架 模型 和 关联 开放 数据 云 ,实现 接 入 云 的 组 织 和 
个 人 获取 ,共享 结构 化 文化 遗产 资源 数据 ,形成 文化 遗 
产 数据 之 间 的 相互 语义 关联 ”;MuseumFinland 构建 符 
合 博物 馆 馆 藏 特征 的 本 体 模型 ,实现 芬兰 各 博物 馆 的 
馆藏 数据 的 语义 关联 中 。 

(4) 智 慧 化 阶段 。 文 化 遗产 组 织 的 智慧 化 阶段 是 
指 利用 前 述 阶段 构建 的 数据 ,从 时 序 空间 .主题 .网络 
等 多 个 维度 进行 更 深层 次 的 语义 分 析 。 智 慧 化 阶段 逐 
渐 形成 了 数据 驱动 的 数字 人 文 研 究 新 范式 , 即 在 关联 
化 数据 的 基础 上 ,利用 新 工具 和 新 方法 对 旧 问题 进行 
新 思考 ,同时 根据 现 有 的 大 量 数据 提出 新 问题 。 关 联 
化 网 段 是 目前 部 分 文化 中产 项 目 努 力 达成 的 目标 , 宋 
伐 党 术语 义 网 络 平台 基于 CBDB 中 的 数据 ,对 宋代 人 
铸 齐 行 时 间 序列 分 析 、 空 间 地 理 分 析 、 社 会 网 络 分 析 等 
机 纲 化 分 析 。 陈 佩 诗 基于 《 明 清 台 湾 行政 档案 》 与 《 古 
契 给 文书 》 的 数据 ,通过 对 清 代行 政文 书 在 不 同行 政 部 
前 转 的 引用 情况 ,进而 分 析 清 代行 政 处 理 效率 及 流 
SU. 

CD 语义 知识 服务 与 工具 

,语义 知识 服务 是 以 文化 遗产 项 目 中 的 数据 为 基 
础 护照 用 户 的 需求 特点 ,利用 系统 提供 的 语义 知识 服 
分 对 工具 ,如 精准 化 .层级 化 的 知识 检索 和 浏览 服务 ， 
自 贿 化 .关键 词 式 或 人 工 化 的 标记 与 分 词 工具 ,基于 时 
闻 x 地 点 、 人 物 等 特征 的 字 频 、 词 频 统计 分 析 工 具 , 以 及 
基本 时 间 CIS 地 理 数据 分 析 及 空间 分 析 .人物 关系 等 
维度 的 可 视 化 分 析 工具 或 服务 ,从 而 有 针对 性 地 提取 
相应 的 知识 ,搭建 知识 网 络 ,为 用 户 提供 符合 语义 的 知 
识 内 容 或 解决 方案 。 调 研发 现 ,国内 外 典型 的 文化 遗 
产 项 目 均 开 通 相对 应 的 语义 门户 或 系统 ,为 用 户 提供 
层级 化 可视化 的 信息 浏览 检索 服务 ;文化 遗产 项 目 
还 提供 概念 间 关系 的 语义 检索 等 关联 数据 服务 ,比如 
宋代 学 术语 义 网 络 平台 设计 了 学 生 关系 学 术 传承 关 
系 等 39 种 人 物 关系 ,能够 清晰 地 揭示 出 人 物 概念 之 
间 的 多 层 关系 ,为 数字 人 文 研究 提供 数据 支撑 。 同 时 ， 
多 数 项 目 基于 知识 图 谱 和 关联 数据 等 技术 ,开发 相应 
语义 工具 ,为 用 户 提供 语义 检索 .语义 关联 、 知 识 发 现 
和 语义 信息 可 视 化 等 个 性 化 语义 知识 服务 "9 。 

语义 知识 服务 方面 ,MuseumFinland 为 用 户 提供 分 
面 搜索 和 语义 链接 浏览 服务 。 历 代 进 士 登科 数据 库 
在 实现 “检索 浏览 "和 “分 类 导航 ”功能 的 基础 上 ,为 用 


户 提供 姓氏 统计 、 朝 代 统 计 等 多 维度 的 统计 功能 "”。 
WarSampo 为 用 户 检索 提供 不 同类 型 的 战争 信息 透视 
,同时 为 用 户 提 供 相关 数据 推荐 ,具体 包括 数据 库 全 
局 下 载 .URI 重 定向 、 关 联 数据 浏览 .SPARQL 查询 以 及 
数据 生产 编辑、 认证 和 信息 可 视 化 等 多 项 个 性 化 知识 
RE”. 

语义 工具 方面 ,CBDB 开发 CBDBRegexMachine T. 
具 , 基 于 正则 表达 式 为 用 户 从 数据 库 中 挖掘 大 量 知识 
提供 便利 ,帮助 研究 者 实现 中 国 历史 人 物 传记 数据 的 
挖掘 和 可 视 化 。Europeana 提供 精准 化 搜索 与 过 滤 工 
F ,开放 REST API 接口 ,帮助 用 户 快速 找到 所 需 内 容 ， 
同时 允许 开发 人 员 使 用 数据 库 中 的 数据 进行 应 用 开 
发 。 宋 代 学 术语 义 网 络 平台 构建 “知识 图 谱 结 构 探 
索 ” 和 “关系 发 现 ” 工 具 , 通 过 可 视 化 的 方式 帮助 用 户 
了 解 宋 代 学 术 网 络 的 结构 和 关系 ,同时 支持 用 户 自主 
探索 和 发 现实 体 关系 ”。 


3 文化 遗产 语义 组 织 关 键 技 术 分 析 


语义 网 及 机 器 学 习 技 术 等 的 发 展 , 为 文化 遗产 资 
源 知识 体系 构建 、 知 识 融 合 和 知识 应 用 等 问题 提供 了 
有 效 解决 方案 ,能 够 将 文化 遗产 从 资源 服务 层面 提升 
为 计算 机 可 处 理 可 理解 的 知识 服务 层面 。 具 体 来 说 ， 
涉及 到 知识 建 模 、 知 识 抽取 和 知识 挖掘 等 方面 的 技术 
与 方法 。 

3.1 知识 建 模 

文化 遗产 资源 规模 庞大 结构 混乱 ,表现 出 较 强 的 
异 质 性 、 异 构 性 。 知 识 建 模 ,是 一 种 结构 化 、 模 型 化 的 
知识 表达 方式 ,能够 实现 文化 遗产 知识 的 结构 化 .语义 
化 和 共享 化 ,为 知识 服务 提供 重要 支撑 。 传 统 的 知识 
建 模 主 要 以 分 类 法 ` 氢 词 表 等 为 主 , 随 着 语义 网 技术 的 
发 展 , 越 来 越 多 的 文化 遗产 项 目 选择 使 用 元 数据 及 本 
体 技 术 进 行 知识 建 模 。 

3.1.1 MAR 

20 世纪 60 年 代 , 叙 词 表 迅 速 发 展 , 涵盖 了 各 个 领 
域 。 文 化 遗产 领域 , Geuy 研究 所 在 国际 标准 的 基础 
上 ,系统 地 构建 人 文 领域 词 表 ,涉及 艺术 、 建 筑 、 书 目 、 
档案 等 多 个 主题 ,包括 构建 艺术 和 建筑 叙 词 表 (AAT) 、 
Tetris] de (CT) 文化 对 象 名称 规 范 表 (CONA ) .地 理 
名 称 表 (TCN ) .艺术 家 联合 表 (ULAN) 和 图 像 规范 表 
(A)。 此 外 ,还 有 部 分 语义 门户 针对 特定 项 目 或 领 
域 构建 叙 词 表 , 如 CBDB 构建 中 国 古 代 官 名 表 和 地 址 
表 , 分 兰 国家 图 书馆 构建 涉及 文化 遗产 艺术、 健康 等 
各 个 研究 领域 的 芬兰 通用 叙 词 表 (YSA) ^ ,美国 国会 
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图 书馆 针对 馆藏 构建 美国 国会 图 书馆 主题 词 表 
(LCSH) ,武汉 大 学 数字 人 文 研究 中 心 构建 敦煌 壁画 主 
题词 表 (DMT) ”等 。 
3.1.2 本 体 建 模 

本 体 模型 主要 包括 事件 本 体 、 人 物 本 体 和 人 物 - 
事件 本 体 3 种 类 型 。 其 中 ,事件 本 体 以 事件 类 的 格 结 
构 作为 主线 ,主要 包含 对 象 要 素 .动作 要 素 .时 间 要 素 、 
环境 要 素 .断言 要 素 和 语言 表现 要 素 !5 ,如 芬兰 Muse- 
umFinland 基于 大 事 年 表 创建 历史 事件 本 体 ,实现 收藏 
品 材料. 人物、 位 置 . 时 间 和 收藏 机 构 等 元 数据 在 相关 
事件 的 互 操作 ,对 实体 的 不 同 状态 进行 描述 ,实现 文化 
遗产 之 间 的 语义 关联 5 。 人 物 本 体 以 人 物 为 知识 组 织 
主线 ,揭示 人 物 之 间 的 社会 关系 ,实现 人 物 关系 的 形式 
伐 和 结构 化 "9 ,如 CBDB 围绕 中 国 十 代 人 物 构建 本 体 
模型 ,BiographySampo 构建 分 类 人 物 本 体 模型 。 人 物 - 
弄 休 本 体 将 人 物 和 事件 进行 关联 用 作 主 线 , 如 War- 
SE o 将 事件 类 加 入 人 物 本 体 中 ,将 在 形式 上 和 数量 
二名 较 大 差距 的 人 物 信息 协调 成 为 一 系列 事件 ,增强 
模型 的 扩展 性 。 
文化 遗产 领域 常用 CIDOC CRM" ,EDM( Europe- 
ja Data Model) "" | BIBO™® ,HOPE^" ,SEM ”等 语义 
模型 作为 资源 内 容 的 描述 规则 ,将 不 同形 式 的 元 数据 
映射 到 通用 的 底层 本 体 模型 上 ,在 此 基础 上 构建 能 
揭 款 数字 遗产 资源 不 同 概念 间 关联 关系 的 本 体 模型 ， 
大 条 用 最 小 元 数据 模式 对 事件 进行 精准 识别 和 理解 ， 
达到 事件 消 歧 的 效果 '”) ,从 而 进行 事件 知识 表示 。 其 
中 3 国际 文献 工作 委员 会 构建 的 概念 参考 模型 CIDOC 
CRM 是 目前 文化 遗产 领域 规模 最 大 ,标准 化 程度 最 高 
的 本 体 框架 之 一 ,能 够 有 效 促进 文化 遗产 信息 源 的 集 
成 . 转 接 和 相互 交换 ,目前 在 芬兰 二 战 语义 门户 War 
Sampo .Getty 和 世界 遗产 基金 会 构建 的 文化 遗产 门户 
Arches"? 英国 博物 馆 的 ResearchSpace 7" 古典 艺术 
遗产 门户 CLAROS” 等 文化 遗产 项 目 得 到 广泛 使 用 。 
欧洲 数字 人 文 资源 整合 项 目 Europeana 构建 了 EDM f 
型 ,对 类 和 属性 进行 定义 ,揭示 了 聚合 结构 关系 、 资 源 
对 象 间 关系 、 事 件 情景 关系 和 资源 对 象 主题 关联 关系 
4 种 资源 关联 关系 ,在 为 其 他 机 构 提供 基础 模型 框架 
的 同时 ,也 在 不 断 扩充 自身 的 数字 内 容 。 基 于 EDM 模 
型 ,欧洲 乐器 博物 馆 联合 创建 的 MIMO 项 目 实现 了 乐 
器 的 集成 ,CARARE 实现 考古 和 遗产 领域 数字 内 容 
WERO ,伦敦 国王 学 院 的 SPQR 项 目 实现 6.8 万 余 
件 古 希腊 古 罗马 碑文 .铭文 资源 的 集成 。 

世界 范围 内 ,本 体 框架 模型 数量 多 、 各 成 规范 , 同 


c 


时 文化 遗产 的 内 容 来源 语言 格式 和 标准 多 样 ,无 法 
避免 地 给 数据 的 语义 集成 造成 一 定 的 困难 ;同时 ,在 国 
内 文化 遗产 领域 ,目前 多 是 基于 项 目 或 朝代 构建 本 体 
模型 , 尚 无 像 CIODC CRM EDM 一 类 的 标准 化 强 .通用 
性 高 .系统 化 的 本 体 框架 模型 ,更 没有 针对 中 国 传统 文 
化 构建 的 本 体 框 架 模 型 ,这 应 该 引起 未 来 数字 人 文 研 
究 与 实践 的 关注 与 重视 。 

3.1.3 元 数据 

目前 ,元 数据 是 绝 大 多 数 文 化 遗产 项 目 实 现 历 史 
文本 ( 非 结 构 化 ) 到 数据 (结构 化 ) 的 通用 解决 方案 ,能 
够 实现 来 源 于 不 同 数 据 集 的 异 构 数据 的 共享 、 交 互 和 
整合 ” 。 目 前 业界 关注 的 重点 在 于 元 数据 的 语义 互 
操作 和 元 数据 标准 。 

元 数据 的 核心 是 解决 异 构 数据 的 语义 互 操作 问 
题 ,主要 包括 元 数据 扩展 和 元 数据 对 齐 两 种 思路 。 
元 数据 扩展 , 即 对 现 有 元 数据 进行 扩展 ,比如 War- 
Sampo 基于 CIDOC CRM 框架 模型 实现 元 数据 的 管理 
与 扩展 ;意大利 文化 遗产 项 目 Protocollo Informatico 基 
于 DC 元 数据 模型 进行 元 数据 元 素 拓 展 , 同 时 实现 项 
目 模型 与 DC 元 数据 元 素 的 映射 。 元 数据 元 素 对 
A ,比如 MuseumFinland 将 异 构 数 据 对 齐 、 转 化 为 
符合 DC 标准 的 元 数据 ,实现 文化 遗产 资源 的 元 数据 
表示 。 

元 数据 标准 是 元 数据 的 基础 和 关键 ” ,使 用 用 户 
熟知 、 易 操作 的 元 数据 标准 可 以 帮助 实现 数据 的 对 齐 
与 合并 。 当 前 文化 遗产 领域 常 使 用 元 数据 标准 DC 
( Dublin Core , DC) 的 命名 空间 及 其 向 下 拓展 原则 对 数 
据 库 中 收集 对 象 的 元 数据 的 元 素 集 合 、 术 语 和 属性 进 
行 定义 ” ,在 图 书馆 政府 网 站 等 领域 得 到 广泛 使 用 。 
文化 遗产 领域 ,Europeana、WarSampo 和 MuseumFinland 
等 项 目 均 以 DC 元 数据 标准 为 基础 进行 数据 映射 与 对 
齐 。 男 外 ,还 有 档案 馆 常 用 的 EAD 标准 和 博物 馆 的 
LIDO 标准 等 来 实现 不 同 元 数据 模型 元 素 之 间 的 映射 。 
构建 文化 遗产 资源 的 框架 模型 ,通常 使 用 W3C 推荐 的 
RDF(S) 和 OWL 等 语义 网 技术 标准 ,并 利用 SKOS 来 
构建 资源 描述 所 需 的 受 控 词汇 表 ”。 

3.2. 知识 抽取 技术 

在 文化 遗产 领域 ,知识 抽取 主要 是 识别 不 同文 化 
遗产 资源 中 蕴含 的 知识 点 及 其 之 间 的 语义 关系 。 目 前 
在 知识 抽取 领域 取得 了 较 大 的 进展 ,学 者 们 将 这 些 技 
术 和 方法 应 用 于 文化 遗产 领域 信息 资源 的 知识 抽取 
中 。 根 据 处 理 的 信息 资源 对 象 的 差异 ,规则 匹配 与 机 
器 学 习 技 术 是 目前 被 广泛 使 用 的 方法 。 
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3.2.1 规则 匹配 方法 

规则 匹配 的 方法 以 领域 知识 为 基础 ,通过 人 工 对 
文本 特征 进行 分 析 ,构建 相对 应 的 规则 ,并 编写 正则 表 
达 式 ,从 而 实现 对 文本 的 模式 匹配 ,最 终 实现 基于 规则 
的 知识 抽取 。 这 类 方法 主要 适用 于 带 抽取 的 语 料 在 名 
法 上 具有 一 定 的 内 在 规律 的 文本 ,例如 ,典籍 .地 方志 
等 。 从 实践 上 来 看 , CBDB 项 目的 历史 学 专家 和 计算 
机 专家 针对 历史 人 物 的 特征 设计 相应 的 正则 表达 式 ， 
同时 由 编辑 团队 对 匹配 到 的 文本 进行 核验 ,针对 地 
志 、 幕 志 馅 本文 的 行文 特点 ,设计 了 有 针对 性 的 知识 
点 抽取 规则 ,规则 匹配 法 运用 广泛 ,技术 相对 成 熟 ,但 
是 由 于 其 规则 的 制定 存在 一 定 的 主观 性 ,无 法 保证 知 
识 的 逻辑 性 .系统 性 和 完整 性 ;同时 ,由 于 规则 匹配 法 
的 针对 性 较 强 ,导致 其 在 不 同 的 文本 不同 领域 间 的 移 
植 性 较 差 。 对 于 该 问题 ,一 些 项 目 尝试 利用 计算 机 自 
动 淄 习 信息 抽取 规则 。 
机 器 学 习 的 相关 方法 
回 在 文化 遗产 领域 的 知识 抽取 工作 中 , 目前 常用 的 
机 医学 习 方 法 包含 基于 特征 的 方法 和 基于 神经 网 络 的 
庙 甬 。 历 史学 专家 可 以 通过 约定 的 规则 对 训练 文本 进 
入 后 注 , 形 成 训练 语料库 ,建立 相应 的 训练 语 料 模型 。 
通过 训练 语 料 的 学 习 , 系 统 能 够 对 新 的 文本 进行 处 理 。 
花 庆 史学 领域 ,以 特征 向 量 为 基础 的 机 器 学 习 方法 能 
够 焉 得 较 好 的 效果 ,具有 一 定 的 代表 性 。 
2 自然 语言 处 理 技术 也 常 被 用 于 文化 遗产 语义 组 织 
的 研究 中 ,能 够 实现 文化 遗产 知识 的 文本 分 类 自动 分 
词 3 命 名 实体 识别 .依存 句法 分 析 、 事 件 抽取 等 功能 ,党 
用 的 算法 模型 包括 支持 向 量 机 ,决策 树 .随机 森林 等 传 
统 机 器 学 习 算法 ,条 件 随机 场 等 注重 前 后 特征 的 序列 
标注 算法 以 及 目前 运用 广泛 的 卷 积 神经 网 络 .循环 神 
经 网 络 的 深度 学 习 技 术 。 比 如 ,意大利 自然 语言 处 理 
实验 室 基 于 文化 遗产 项 目 CHROME 的 开发 需要 ,创建 
了 LinguA ( Linguistic Annovation pipeline ) , READ-IT 
( Assessing Readability ) , T2K ( Text-To-Knowledge ) 等 自 
然 语言 处 理工 具 , 能 够 实现 文本 的 标注 .自动 分 词 、 命 
名 实体 识别 .关系 抽取 和 可 视 化 等 多 种 功能 *。 
3.3 知识 挖掘 与 利用 

关联 (开放 ) 数 据 ` 知 识 图 谱 等 语义 技术 和 时 空 》 
析 .关系 分 析 和 聚 类 分 析 等 多 维 分 析 可 视 化 方法 的 发 
展 ,使 得 文化 遗产 资源 的 语义 知识 服务 成 为 可 能 ,不 断 
提升 文化 遗产 知识 服务 的 效果 和 层次 2 。 
3.3.1 关联 (开放 ) 数据 

在 具体 的 实践 过 程 中 ,关联 数据 和 开放 数据 技术 


应 用 的 最 多 ,关联 (开放 ) 数 据 的 实质 是 以 资源 描述 框 
2i ( Resource Description Framework , RDF ) 数据 模型 为 
基础 ,利用 OWL、SKOS 等 工具 ,将 不 同 内 容 商 提供 的 
非 结构 化 数据 或 者 采用 不 同 标准 的 结构 化 数据 转换 成 
标准 化 .结构 化 的 数据 ,实现 数据 ( 集 ) 的 建 模 、 创 
E .协调 和 聚合 ,具体 原理 如 图 1 所 示 : 


:内容 ias 


互联 网 


博物 馆 


图 1 关联 数据 原理 框架 


从 实践 上 来 说 ,关联 数据 最 多 实现 于 图 书馆 .博物 
TH 档案 馆 和 美术 馆 ( 以 下 简称 “四 馆 ”) 等 公共 文化 机 
构 ,CultureSampo、BookSampo 和 WarSampo 基于 集成 语 
义 模型 元 数据 对 齐 模型 和 领域 本 体 模型 的 Sampo X 
联 数据 发 布 模型 ,分 别 从 文化 (如 绘画 小说、 漫画 等 资 
源 ) .书目 (如 作者 、 编 辑 、 出 版 商 等 资源 ) 和 战争 (如 战 
争 日 记 、 相 册 集 、 回 忆 录 等 资源 )3 个 维度 ,实现 四 人 馆 、 
高 校 科 研 机 构 、 出 版 社 等 机 构 的 馆藏 资源 的 集成 与 关 
联 ;另外 还 有 欧洲 文化 遗产 门户 网 站 Europeana、 英 
博物 馆 的 ResearchSpace .耶鲁 中 心 的 英国 艺术 项 目 、 美 
司 艺 术 类 文化 遗产 项 目 AAC(American Art. Collabora- 
tive) 均 以 CIDOC CRM 框架 模型 为 基础 ,实现 (欧盟 ) 
各 国 四 馆 、 展 览 馆 馆 藏 资源 的 关联 。 
3.3.2 知识 图 谱 

在 文化 遗产 领域 ,知识 图 谱 常 被 用 来 进行 概念 和 
语义 关系 的 表示 ,作为 一 种 数据 结构 ,能够 形成 一 个 互 
联 的 .分散 的 全 球 知识 网 络 " ,实现 大 型 语料库 的 联 
结 , 为 数字 信息 系统 信息 导航 可视化 分 析 、 知 识 发 现 
和 语义 检索 提供 支撑 。 知 识 图 谱 的 重要 意义 不 仅 在 于 
提升 查 全 率 、 查 准 率 ,更 能 够 揭示 知识 的 层级 关系 ,并 
在 此 基础 上 进行 多 维度 的 可 视 化 分 析 。 

实践 方面 ,意大利 文化 遗产 项 目 ArCo 基于 82 万 
件 文化 遗产 实体 的 事件 信息 、 位 置信 息 等 信息 ,构建 了 
7 个 受 控 词 表 、1.69 亿 个 三 元 组 ,利用 SPARQL 对 RDF 
进行 处 理 并 进行 数据 发 布 ” ; CultureSampo 构建 芬兰 
历史 人 物 知 识 图 谱 ,实现 人 物 关 系 的 相互 关联 ;宋代 学 
术语 义 网 络 平台 构建 “宋代 学 术 师 承 ” 知 识 图 谱 , 并 开 
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发 出 RelFinder 关系 发 现 工具 ,将 知识 图 谱 转 换 为 能 
解释 关系 属性 和 自然 语言 表达 的 关系 实例 ,基于 实例 
的 层次 属性 实现 <X,Y,Z > 三 级 关系 的 精准 化 语义 检 
m. 
3.3.3 多 维 分 析 可 视 化 技术 

多 维 分 析 可 视 化 技术 作为 知识 挖掘 的 重要 手段 ， 
主要 是 利用 计算 机 图 形 学 和 图 像 处 理 技术 ,遵照 不 同 
的 维度 ,将 数字 形式 的 数据 转换 为 图 形 .图 像 ,予以 直 
观 , 形 象 地 呈现 , 目前 在 文化 遗产 领域 的 应 用 主要 包 
括 : 聚 类 分 析 可 视 化 .时空 分 析 可 视 化 和 实体 关系 分 析 
可 视 化 。 

(1) 聚 类 分 析 可 视 化 。 文 化 遗产 领域 , 常 遵 照 次 
源 的 内 在 相似 性 将 数据 集 划分 为 多 个 类 别 , 根 据 资源 
的 主题 ,特征 等 维度 展开 聚 类 分 析 。 当 前 多 数 文化 遗 

目 遵照 主题 对 资源 数据 进行 划分 ,实现 相同 主题 
普 秽 遗产 资源 的 聚合 ,欧盟 文化 遗产 平台 Europeana 最 
pe ann 


运动 .战争 等 多 个 主题 角度 对 欧洲 历史 进行 揭示 ”。 
在 此 基础 上 ,部 分 文化 遗产 项 目 以 资源 特征 为 基础 对 

遗产 资源 进行 组 织 , 并 以 此 为 基础 进行 可 视 化 展 
io MuseumFinland 基于 材料 特征 , Europeana 基于 颜 
ERPE XT AIEE T RE IAEA T o 


o 时 空 分 析 可 视 化 。 时 空 分 析 可 视 化 包括 时 间 分 
mu EE 卫星 图 像 vie 

X 瑞典 

Z n EEREN 

= 

© 


"TT 
aPárnu - 


- o ; A 
地 图 数据 令 2019 GS (2011). 6020 GeoBasis-DE / BKG (062009) . © WAHAR 


析 可 视 化 .空间 分 析 可 视 化 和 时 间 - 空间 分 析 可 视 化 。 

时 间 分 析 可 视 化 , 即 以 时 间 维 度 为 基准 进行 文化 
遗产 知识 的 语义 组 织 , 实 现 基于 时 间 轴 的 时 间 序 列 可 
视 化 。 比 如 WarSampo 以 时 间 轴 为 基础 ,对 战争 事件 、 
人 物 生 平等 含有 时 间 特 征 的 资源 进行 可 视 化 展示 。 

空间 分 析 可 视 化 , 即 遵照 地 理 空间 维度 对 文化 遗 
产 资源 进行 语义 组 织 ,实现 基于 地 图 系统 的 地 理 空间 
可 视 化 ,当前 最 受 关注 的 就 是 地 理 信息 系统 (GIS) 在 
数字 人 文 领域 的 应 用 。 国 内 目前 最 具 代 表 性 的 是 浙江 
大 学 的 地 图 发 布 平台 ,用 户 可 在 平台 内 实现 地 图 的 发 
布 .编辑 .搜索 ,查看 与 共享 。 文 化 遗产 领域 ,常见 的 空 
间 分 析 可 视 化 的 呈现 形式 包括 :分 布 图 (如 浙江 古 塔 分 
布 .古代 周 姓 人 物 分 布 等 ) .路 线 图 (如 汤 显 祖 行 迹 图 、 
明代 了 驿站 路 线 图 等 ) 。 

时 间 - 空间 分 析 可 视 化 , 即 实 现时 间 分 析 和 空间 
分 析 的 结合 ,提供 更 加 完整 的 时 空 分 析 可 视 化 知识 服 
务 。 芬 兰 最 新 的 文化 遗产 语义 项 目 BiographySampo " 
能 够 以 地 图 系统 为 基础 ,实现 基于 时 间 轴 的 人 物 - 事 
件 的 可 视 化 显示 ,图 2 为 伊利 尔 ' 沙里 宁 的 生平 事迹 
的 检索 结果 ,显示 出 了 人 物 在 不 同时 间 不同 地 点 所 发 
生 的 事件 。 图 2 中 下 侧 为 基于 时 间 轴 的 事件 分 布 情 
况 , 上 侧 为 事件 的 地 理 分 布 情况 ,二 者 结合 实现 事件 时 
间 和 位 置 的 关联 。 


Kunniamaininnat 


一 二 a» 


2 时间 - 空间 分 析 可 视 化 示例 :BiographySampof”' 


(3) 实 体 关 系 分 析 可 视 化 。 实 体 关 系 分 析 可 视 化 
主要 是 揭示 文化 遗产 资源 中 人 物 的 社会 关系 ,其 中 一 


个 人 物 或 者 地 点 等 实体 是 一 个 节点 , 连 线 表示 2 个 实 
体 之 间 的 关系 ,多 个 节点 ,多 个 连 线 则 构成 一 个 复杂 的 
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社会 网 络 关 系 , 实 现 人 物 与 人 物 / 地 点 等 之 间 关 系 的 语 
义 化 揭示 。 以 国内 具有 代表 性 的 宋代 学 术语 义 网 络 平 
台 为 例 ,平台 基于 CBDB 的 数据 关系 整合 出 学 生 关 系 
(kv: hasStudent ) 子女 关系 (schema: children ) 籍贯 


(kv :nativePlace ) 等 22 种 实体 关系 ,图 3 为 利用 宋代 学 
术语 义 网 络 平台 的 关系 发 现 工具 RelFinder 对 “王安石 
-司马 光 - 苏轼 "三 者 之 间 关 系 进行 揭示 ” 。 


Status:Idle 
movedTo 
nativePlace hasStudent 
洛阳 陈 敏 ^ 
hasStudent 
rr! ^ 司马 光 hasStudent 
hasStudent 
hasStudent 
玉 安 看 
杨 杰 P MEK ^ 
b umm 
— hasStudent 
p 
PN hasStud&rt-- hasStudent 
Q) 3767 
e" ——— 
E N FE ^ zm hasStudent 
le hasChild 
m 黄庭坚 A 
De hasStudent 
c » hasStudent 
e 
-上 E " E kas Y T 9 
N 图 3 实体 关系 分 析 可 视 化 示例 :宋代 学 术语 义 网 络 平台 ” 


e 
4 存在 的 问题 及 未 来 发 展 趋势 

aN 数据 互 操作 问题 

0D 由 于 文化 遗产 数据 具有 多 学 科 性 和 异 质 性 ,目前 
文 狐 溃 产 组 织 多 是 在 本 体 中 实现 概念 和 URI 的 简单 合 
并 滞 同 时 ,由 于 数据 来 源 广泛 ,使 用 的 数据 格式 和 标准 
E 很 难 实现 数据 的 语义 互 操作 。 语 义 网 所 涉 
及 到 的 本 体 、 元 数据 等 各 项 技术 ,不 仅 提供 了 通用 标准 
框架 ,更 为 数据 互 操作 提供 了 通用 标准 、 规 范 。 因 此 ， 
需要 通过 语义 网 技术 来 优化 数据 集成 和 知识 再 利用 ， 
目标 应 该 转向 真正 的 概念 集成 ,本体 匹配 和 语义 相关 
实体 的 关联 ,还 应 该 考虑 到 数据 是 否 是 由 不 同 的 方法 
或 具有 不 同 科学 背景 的 用 户 创建 的 。 同 时 ,利用 多 学 
科 信 息 进行 模糊 推理 的 语义 技术 规则 和 概率 描述 逻 
辑 , 以 及 对 动态 演化 数据 的 推理 是 必要 的 ,从 而 实现 深 
层 语 义 挖 据 和 多 维 信息 的 概念 融合 与 集成 。 

4.2 ”本 体 标准 化 问题 


同 机 构 或 领域 构建 的 本 体 使 用 不 同 的 主题 词 表 或 标 
准 , 也 会 导致 相互 孤立 . 互 不 兼容 等 语义 问题 。 为 解决 
此 问题 ,必须 要 从 构建 主体 和 开放 获取 两 个 维度 展开 ， 
即 :扩大 本 体 构 建 的 主体 范围 ,让 更 多 的 个 人 、 组 织 
构 加 入 到 本 体 的 建设 过 程 当中 ;增强 本 体 框 架 的 开发 
获取 水 平 , 实 现 本 体 共 享 的 同时 ,也 能 够 加 强 本 体 标准 
化 建设 。 此 外 ,本 体 的 映射 和 对 齐 .基于 基本 逻辑 原则 
的 本 体 共享 也 能 够 实现 本 体 标 准 化 ,也 有 助 于 增强 不 
同 领域 本 体 间 的 语义 互 操作 。 
4.3 多 语言 知识 表达 问题 

本 文 在 研究 过 程 中 发 现 文化 遗产 呈现 明显 的 多 语 
言 性 质 , 旦 大 多 数 机 构 用 本 地 语言 存储 数据 。 开 放 数 
据 运 动 鼓励 文化 遗产 机 构 向 公众 提供 其 数据 ,即使 这 
一 做 法 被 广泛 接受 ,也 很 难 确保 机 构 用 本 地 语言 以 外 
的 其 他 语言 发 布 其 数据 集合 。 为 了 实现 文化 遗产 数据 
在 世界 范围 内 的 共享 使 用 ,就 迫切 需要 在 系统 、 模 型 
开发 的 源头 就 开始 注重 多 语言 的 问题 ,比如 本 体 多 语 


cr 


本 体 构建 一 直 是 文化 遗产 领域 的 关注 热点 ,目前 
多 数 项 目 以 CIDOC CRM 为 基础 本 体 模 型 进行 扩展 或 
改造 ,能 够 提升 语义 组 织 效 率 ,但 是 也 会 导致 语法 缺 
陷 ,概念 和 模型 缺陷 和 不 一 致 性 等 语义 问题 。 另 外 ,不 


言 化 .元 数据 标准 多 语言 化 和 多 语言 的 知识 表示 、 获 取 
和 翻译 。 因 此 ,在 未 来 文化 遗产 项 目的 设计 开发 过 程 
中 ,本 地 化 和 语言 技术 处 理 、 翻 译 与 表示 和 自然 多 语言 
数据 管理 等 技术 将 会 进一步 发 展 。 
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4.4 个 性 化 语义 问题 
个 性 化 语义 是 表达 主观 意见 和 主观 推理 的 必要 条 
件 。 具 有 特定 属性 的 文化 遗产 对 象 ,对 于 背景 .兴趣 和 
目的 不 同 的 人 来 说 ,往往 具有 不 同 的 审美 意义 或 解释 
意义 。 同 样 ,有 争议 的 文化 遗产 也 可 能 会 受到 衰 贬 不 
一 的 评价 和 感受 。 解 决 此 问题 ,关键 在 于 为 用 户 提供 
个 性 化 语义 服务 ,包括 个 性 化 主页 .语义 超 链接 .个 性 
化 语义 检索 ,个 性 化 语义 导航 等 中。 因此 ,语义 推理 
技术 将 会 成 为 未 来 的 发 展 趋势 之 一 , 即 根据 文化 遗产 
对 象 之 间 的 语义 关系 进行 推理 ,无 论 是 使 用 描述 逻辑 ， 
还 是 语义 知识 提取 ,都 能 够 派生 出 不 同 的 语义 并 相应 
地 进行 个 性 化 知识 服务 。 
4.5 ”自动 化 工具 构建 问题 
一 目前 ,国内 外 仅 有 少数 项 目 能 够 在 对 文化 遗产 进 
得 语义 组 织 的 过 程 中 进行 自动 化 工具 开发 。 在 文化 中 
关 谓 义 组 织 过 程 中 ,文化 遗产 机 构 开 始 应 该 使 用 语义 
援 杀 处 理 数据 ,并 将 其 作为 关联 数据 发 布 , 同 时 应 该 开 
发 富 些 使 用 简便 , 且 集 成 技术 流程 ,能够 处 理 大 量 数据 
的 生动 化 工具 ,比如 自动 标注 、 自 动 分 词 .可视化 分 析 
天 等 。 尽 管 已 经 存在 一 些 相应 的 工具 ,但 是 其 自动 
必得 度 较 低 , 如 果 要 增强 文化 遗产 组 织 对 语义 网 的 利 
用 禹 度 , 还 需要 进一步 提升 工具 的 自动 化 和 便利 程度 。 
4GN 数据 版 权 问题 
.全 数字 人 文 和 开放 数据 运动 的 盛行 ,目前 数字 人 文 
资源 的 规模 日 益 庞大 。 数 据 版 权 问 题 没 有 得 到 完全 解 
决 。 将 成 为 博物 馆 、 图 书馆 等 机 构 进行 信息 分 布 和 共享 
的 从 碍 。 为 解决 此 问题 ,可 以 借鉴 现 有 的 知识 产权 保 
撒 福 应 的 措施 ,从 法 律 制度、 执行 许可 证 等 多 个 层面 
保护 数据 版 权 。 同 时 ,引入 元 数据 技术 与 标准 .区 块 链 
技术 , 亦 能 对 数据 版 权 起 到 保护 作用 。 


5 总 结 


本 文 以 国内 外 典型 文化 遗产 项 目的 调研 数据 为 基 
础 ,从 语义 组 织 方式 和 知识 服务 与 工具 两 个 方面 对 文 
化 遗产 项 目 语义 组 织 的 研究 现状 进行 梳理 。 同 时 ,本 
文 基于 知识 建 模 、 知 识 抽 取 和 知识 挖掘 与 利用 3 个 维 
BE ,对 文化 遗产 语义 组 织 关键 技术 进行 剖析 ,具体 包括 
本 体 .元 数据 ,关联 (开放 ) 数 据 ` 知 识 图 谱 等 技术 。 通 
过 上 述 分 析 , 本 文 发 现 文化 遗产 项 目的 语义 组 织 在 未 
来 的 发 展 过 程 中 仍 面临 诸多 挑战 :比如 增强 数据 的 深 
度 互 操作 ,实现 领域 本 体 标准 化 、 系 统 性 和 可 重用 性 
满足 用 户 对 于 知识 服务 的 个 性 化 、 多 元 化 和 多 层次 需 
求 ,加 大 自动 化 . 易 用 工具 的 开发 力度 ,增强 文化 遗产 


数据 的 版 权 保 护 等 问题 。 
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Abstract; | Purpose/significance | This paper focuses on the development of semantic organization of cultural 


heritage has important reference value for the study of cultural heritage in China. | Method/process | This paper a- 


dopted the method of systematic research, case analysis and statistical analysis, based on the survey data summaries, 


combed the research status of semantic organization of cultural heritage projects from semantic organizations and 


knowledge services and tools, and analyzed the key technologies of semantic organization of cultural heritage from 3 


aspects; knowledge modeling, knowledge extraction, knowledge mining and knowledge utilization. | Result/conclu- 


sion | The research finds the keys to the development of semantic organization of cultural heritage are data interopera- 


bility, domain ontology standardization, personalized semantics, automation tools, data copyright. 
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